CCAI2018|大规模文本数据挖掘的新方向

作者：杭州琦琦妈_120 | 来源：互联网 | 2023-10-11 12:13

ccai2018,大规模,文本,数据

现实中的大数据常常表示为一种非结构化，交叉和动态变化的文本数据。如何从大规模文本数据中抽取结构化知识是一个非常值得研究的任务。很多研究工作依赖于劳动密集型的数据标注，用有监督的方法去抽取知识。但是，这些方法不具有普适性，难以扩展，进而难以处理具有动态性或领域限定性的文本数据。我们认为大规模的文本数据其自身蕴含着大量的模式、结构或知识。通过将无领域限制的大规模文本数据和具有领域限制的知识库结合，我们可以充分发挥大规模文本数据的优势去处理非结构化数据转换为结构化数据的难题。

韩家炜

2018中国人工智能大会（CCAI2018）将于7月28日至29日在深圳举行，韩家炜教授届时将在会上分享他关于大规模文本数据挖掘的最新研究，发表题为《基于海量文本数据的结构化知识抽取：数据挖掘、机器学习和自然语言处理的融合技术》的主题演讲，探讨如何借助大规模文本数据自身的力量去做大规模的知识提取。

适逢盛会，心向往之。会前，我们整理了韩教授以往关于大数据挖掘的相关观点，方便大家一睹为快。

韩家炜现为美国伊利诺伊大学香槟分校计算机系教授，ACM会士和IEEE会士，被称为“数据挖掘第一人”。他在数据挖掘领域有重要的学术影响力，发表论文600余篇，出版多部专著。曾担任国际知名会议KDD、SDM和ICDM程序委员会主席，创办了学术期刊ACM TKDD并担任主编。曾荣获2004 ACM SIGKDD创新奖、2005 IEEE计算机分会技术成就奖、2009 IEEE计算机协会的M. Wallace McDowell奖。他的专著Data Mining: Concepts and Techniques被公认为数据挖掘领域的经典教材。

大数据挖掘，数据结构化首当其冲

大数据（Big data或Megadata），或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模十分巨大，以至于无法在合理时间内通过人工截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下，与个别分析独立的小型数据集（data set）相比，将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性，可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等；这样的用途正是大型数据集盛行的原因。

我们这个时代，由于互联网的发展，产生了大量数据。这些数据中绝大部分（超过 80%）都是以文本等无结构或半结构的方式存储。所以，挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据，也就是说，要实现从Big Data 到Actionable Knowledge的转变。

韩家炜认为，要将无结构的 Big Data 变成有用的 Knowledge，首先要做的就是将数据结构化。他提出两种结构化数据的形式，一种是异质网络（Heterogeneous Network），另一种是多维文本立方体（Multi-dimensional Text Cube）。由结构化数据生成 Knowledge 已经证明是很强大的，但是如何将原始无结构的数据变成有结构的数据（Network 或 Text Cube）则是非常困难的。

在 Network/Text Cube 到 Knowledge 的问题上，韩家炜等人已经做了很多研究工作，也已经由此获得了很多奖项；在无结构文本数据到有结构 Network/Text Cube 的路上他们也做出了许多尝试和成果，现在仍在不断求索中。

数据挖掘三部曲

韩家炜认为，数据挖掘的研究工作可以总结为三部曲：

（1）从文本数据中挖掘隐藏的结构。文本数据中隐藏着大量的结构，这步工作就是将这些数据挖掘出来

（2）将文本数据转化为有类型的 Network/Text Cube。将文本数据变成有结构、有类型的数据（Network/Text Cube）

（3）挖掘 Network/Text Cube 生成有用的知识。最后一步才是挖掘。

此外，在研究的推进过程中，他们也曾遇到了很多困难。

一是领域限制。用一般语料获得的实体标注在特定领域、动态领域或者新兴的领域无法很好的工作。
d47e62d2b349aca45e42305ed6714efbe5ed61d9

二是名称的歧义性。多个实体可能共享同一个表面名字（Surface Name，例如「Washington」，它可能是州、市、人名、球队名等）。
d47e62d2b349aca45e42305ed6714efbe5ed61d9

三是上下文稀疏。对同一个关系可能有许多种表示方法（想想中文有多少中表示体育比赛结果的方法）。

虽然数据挖掘已经有了成型的结构，但仍有重重困难需要克服。韩教授曾说：“在这条路上，我们现在只是找到了几个口子可以往前走。现在这还不是一条大路，只是一条小路。要想变成一条康庄大道，需要大家共同努力。这条路通宽了，将来我们就可以从大量的无结构的文本，变成大量的有用的知识。”

在即将到来的盛夏，韩家炜教授作为中国人工智能大会的特邀嘉宾，将会介绍他最近的研究：如何借助大规模文本数据自身的力量去做大规模的知识抽取？主要包括关键短语抽取，基于远监督的实体识别和关系分类，基于模式的信息提取方法，多元分类的自动发现以及多维文本数据集的构建等方法。在CCAI2018的报告中，韩家炜教授将证明数据挖掘、机器学习和自然语言处理三个技术进行融合是一个“非常重要且极有前途”的方向。

在CCAI2018，跟随开路先锋韩家炜教授，一起踏上这条非常重要且极有前途的路吧！

原文发布时间为：2018-06-24

本文来自云栖社区合作伙伴“机器学习算法与Python学习”，了解相关信息可以关注“机器学习算法与Python学习”。

推荐阅读

object
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
list
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
list
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
list
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
list
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
object
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
string
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
uri
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
timestamp
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
version
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
list
Perl的测试框架Test::Base简介及使用方法

本文介绍了Perl的测试框架Test::Base，它是一个数据驱动的测试框架，可以自动进行单元测试，省去手工编写测试程序的麻烦。与Test::More完全兼容，使用方法简单。以plural函数为例，展示了Test::Base的使用方法。 ... [详细]

蜡笔小新 2023-12-13 20:05:31
list
Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池？

本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点，解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时，介绍了JDK原生线程池的工作流程。 ... [详细]

蜡笔小新 2023-12-13 16:18:09
uri
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
uri
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
uri
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54

杭州琦琦妈_120

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章